python爬取公众号文章如何获取发布时间 | 您所在的位置:网站首页 › python 提取pdf文件黑体字 › python爬取公众号文章如何获取发布时间 |
python爬取公众号文章如何获取发布时间
在上一篇爬取公众号的文章中
爬虫如何爬取微信公众号文章介绍了如何获取公众号的所有历史文章链接,但当我根据链接去爬取文章的时候,却遇到了一个小问题,就是文章的发布时间无法获取,但是检查页面源码的时候明明是有时间的,如图所示:
![]()
但是客户需要发布时间,还要求通过发布时间进行排序显示,所以这个问题一定要解决。 通过查看在微信公众平台获取的response,我发现那里面是有每篇文章的时间戳的,如下: {"app_msg_cnt":525,"app_msg_list":[{"aid":"2247485703_1","appmsgid":2247485703,"create_time":1567005049,"digest":"(2017)京行终2920号行政判决书","update_time":1567034820},}create_time就是发布时间的时间戳,update_time是更新时间的时间戳,只需要把create_time和url一起保存到csv文件中就可以了,之后爬取文章的时候再让url和create_time一一对应起来。如图: 爬取文章内容的爬虫在下一篇介绍。 |
CopyRight 2018-2019 实验室设备网 版权所有 |